计算NASH平衡策略是多方面强化学习中的一个核心问题,在理论和实践中都受到广泛关注。但是,到目前为止,可证明的保证金仅限于完全竞争性或合作的场景,或者在大多数实际应用中实现难以满足的强大假设。在这项工作中,我们通过调查Infinite-Horizo​​n \ Emph {对抗性团队Markov Games},这是一场自然而充分动机的游戏,其中一组相同兴奋的玩家 - 在没有任何明确的情况下,这是一个自然而有动机的游戏,这是一场自然而有动机的游戏,而偏离了先前的结果。协调或交流 - 正在与对抗者竞争。这种设置允许对零和马尔可夫潜在游戏进行统一处理,并作为模拟更现实的战略互动的一步,这些互动具有竞争性和合作利益。我们的主要贡献是第一种计算固定$ \ epsilon $ - Approximate Nash Equilibria在对抗性团队马尔可夫游戏中具有计算复杂性的算法,在游戏的所有自然参数中都是多项式的,以及$ 1/\ epsilon $。拟议的算法特别自然和实用,它基于为团队中的每个球员执行独立的政策梯度步骤,并与对手侧面的最佳反应同时;反过来,通过解决精心构造的线性程序来获得对手的政策。我们的分析利用非标准技术来建立具有非convex约束的非线性程序的KKT最佳条件,从而导致对诱导的Lagrange乘数的自然解释。在此过程中,我们大大扩展了冯·斯坦格尔(Von Stengel)和科勒(GEB`97)引起的对抗(正常形式)团队游戏中最佳政策的重要特征。
translated by 谷歌翻译
机器学习领域的最新进展打开了高性能计算的新时代。机器学习算法在开发复杂问题的准确和成本效益的替代物中的应用已经引起了科学家的主要关注。尽管具有强大的近似功能,但代理人仍无法为问题产生“精确”解决方案。为了解决此问题,本文利用了最新的ML工具,并提供了线性方程系统的自定义迭代求解器,能够在任何所需的准确性级别求解大规模参数化问题。具体而言,建议的方法包括以下两个步骤。首先,进行了一组减少的模型评估集,并使用相应的解决方案用于建立从问题的参数空间到其解决方案空间的近似映射,并使用深层馈电神经网络和卷积自动编码器。该映射是一种手段,可以以微不足道的计算成本来获得对系统对新查询点的响应的非常准确的初始预测。随后,开发了一种受代数多机方法启发的迭代求解器与适当的正交分解(称为pod-2g)相结合的迭代求解器,该迭代求解器被开发为依次完善对确切系统解决方案的初始预测。在大规模系统的几个数值示例中,证明了POD-2G作为独立求解器或作为预处理梯度方法的预处理,结果表明其优于常规迭代溶液方案。
translated by 谷歌翻译
我们介绍了表演性强化学习的框架,学习者选择的政策会影响环境的基本奖励和过渡动态。遵循有关表演预测的最新文献〜\ cite {perdomo等。 Al。,2020},我们介绍了性能稳定政策的概念。然后,我们考虑了强化学习问题的正则版本,并表明,在合理的假设对过渡动态的合理假设下,反复优化此目标将其收敛到性能稳定的策略。我们的证明利用了强化学习问题的双重观点,并且可能在分析其他算法与决策依赖性环境的融合方面具有独立的兴趣。然后,我们将结果扩展到学习者仅执行梯度上升步骤而不是完全优化目标的设置,以及学习者可以从变化的环境中访问有限数量的轨迹的设置。对于这两种设置,我们都利用表演性增强学习的双重表述,并建立与稳定解决方案的融合。最后,通过对网格世界环境的广泛实验,我们证明了收敛对各种参数的依赖性,例如正则化,平滑度和样品数量。
translated by 谷歌翻译
实际因果关系和紧密相关的责任归因概念对于负责任的决策至关重要。实际因果关系侧重于特定结果,并旨在确定对实现兴趣结果至关重要的决策(行动)。责任归因是互补的,旨在确定决策者(代理人)对此结果负责的程度。在本文中,我们研究了在不确定性下用于多代理顺序决策的广泛使用框架下的这些概念:分散的部分可观察到的马尔可夫决策过程(DEC-POMDPS)。在RL中显示了POMDP和结构因果模型(SCM)之间的对应关系之后,我们首先在DECPOMDPS和SCMS之间建立了联系。此连接使我们能够利用一种语言来描述先前工作中的实际因果关系,并研究DECOMDPS中实际因果关系的现有定义。鉴于某些众所周知的定义可能导致违反直觉的实际原因,我们引入了一个新颖的定义,该定义更明确地说明了代理人行为之间的因果关系。然后,我们根据实际因果关系转向责任归因,我们认为,在将责任归因于代理商时,重要的是要考虑代理人参与的实际原因数量以及操纵自己的责任程度的能力。在这些论点的激励下,我们介绍了一种责任归因方法,该方法扩展了先前的工作,同时考虑到上述考虑因素。最后,通过基于仿真的实验,我们比较了实际因果关系和责任归因方法的不同定义。经验结果证明了实际因果关系的定义与其对归因责任的影响之间的定性差异。
translated by 谷歌翻译
一个适合监视fr \'echet均值概念和变形模型概念的概念的框架。通用的含义是使用fr \'echet平均报价的概念来捕获数据的典型功能形状,而变形模型的概念允许对配置文件与典型形状的偏差进行可解释的参数化。基于功能数据的形状特征构建和提出了功能性EWMA型控制图,允许(a)识别与控制内部行为的转变,以及(b)提供潜在转移的因果关系,并具有某些定性特征的显着偏差(例如振幅或相变)。实施功能监测方案以评估环境空气污染。特别是,该方法实施到合成数据示例,以评估其在各种条件下的性能,并使用来自雅典市地区的传感器数据进行真实世界的示例,在该地区,空气污染物的概况及其特征成功地分析了,并且确定了控制外行为。
translated by 谷歌翻译